0%

CDH集群代理状态问题

公司测试集群因为有好几个项目组的同事都在用,时不时会出一些问题

昨天下班前,集群报警

CDH中查看主机状态
datanode128出现:该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系。

运行状态检测出现问题:
alt bug

几乎所有组件处于警告状态,基本可以确定是交换内存的问题,如果内存足够大,可以直接取消交换内存

查看节点agent 状态:

1
2
[root@datanode128 ~]# /data2/CM/cm-5.13.3/etc/init.d/cloudera-scm-agent status
cloudera-scm-agent 已死,但 pid 文件存在

解决办法:删除了pid文件,重新增加节点,将swappiness设置为0(不能用VIM设置,用sysctl -w vm.swappiness=0),swappiness文件有一些特性,这边不展开。